回归

分层匹配都是非参数估计方法,并未对数据生成过程作出假设。

定义:

考虑如下 Linear Regression Model(省略了规范性条件):

Y=τRD+XTβ+e

根据 Frisch-Waugh-Lovell Theorem 可知,τR 也相当于 YD~ 回归的系数。其中,D~Linear Projection Model D=XTβ+D~ 当中的 Projection Error。不过,根据条件期望的定义,X 是离散变量就意味着 E[DX]=XTβ,即条件期望函数必然是线性的。因此 D~=DE[DX],即 D~ 还是 CEF Error,也就满足相关性质。如果 X 是连续变量,要使用 CEF Error 的相关性质就需要明确假设 E[DX] 关于 X 是线性的了。

根据 Linear Regression Model#求解参数 可知

τR=E[D~Y]E[D~2]=E[D~E(YD~)]E[D~2]=E[D~E(YD,X)]E[D~2]

利用潜在结果框架,定义

Δ(X)E(YD=1,X)E(YD=0,X)

从而有

E(YD,X)=E(YD=0,X)+DΔ(X)

代入 τR 可得

τR=E[D~E(YD,X)]E[D~2]=E[D~E(YD=0,X)]E[D~2]+E[D~DΔ(X)]E[D~2]=E[D~DΔ(X)]E[D~2]=E[E(D~DX)Δ(X)]E[E(D~2X)]

其中,E(YD=0,X) 是关于 X 的函数,根据 CEF Error 的性质可知该项为零。

引理:

E(D~DX)=E(D~2X)=E{[DE(DX)]2X}=Var(DX)

证明:D~ 定义式两边同时乘上 D~ 并取期望可得

D~2=D~DD~E[DX]E[D~2]=E[D~D]E[D~E(DX)]E[E(D~2X)]=E[E(D~DX)]

其中,E(DX) 是关于 X 的函数,根据 CEF Error 的性质可知可知该项为零,第一个等式成立;代入 D~ 的定义式即可得到剩余等式。证毕。

引理代入 τR 可得

τR=E[Var(DX)Δ(X)]E[Var(DX)]

可见回归被估量 τR 相当于 Δ(X=x) 根据 Var(DX) 加权的平均值。其中,D 是一个服从二项分布的随机变量,因此 Var(DX)=P(D=1X)[1P(D=1X)],于是

τR=Δ(X=x)P(D=1X=x)[1P(D=1X=x)]P(X=x)P(D=1X=x)[1P(D=1X=x)]P(X=x)

对比匹配被估量,使用贝叶斯公式和全概率公式可得

τM=Δ(X=x)P(X=xD=1)=Δ(X=x)P(D=1X=x)P(X=x)P(D=1X=x)P(X=x)

由此可见,回归和匹配都是 Δ(X) 的平均值,回归是加权平均值,匹配则是算术平均值。例如,P(D=1X=x)=12Var(DX) 最大,即回归会将最大权重赋予处理组和控制组数量相同的层。

结合潜在结果框架,如果满足强可忽略性假设,则

Δ(X)=ATT(X)=ATU(X)=ATE(X)

进一步,如果 Δ(X) 为常数(这很困难),则回归和匹配被估量结果完全相同。